Tesis – Reconocimiento automático de lenguas de signos

2.1 Reconocimiento automático de lenguas de signos

El primer paso para traducir la lengua de signos consiste, como es de esperar, en su captura. En este ámbito, es posible identificar dos enfoques principales: el reconocimiento de signos a partir de imágenes o vídeos, y la captura directa de los movimientos del signante mediante hardware de captura de movimiento (“motion capture”, Lu et al. 1998).

La aproximación mediante tecnologías de motion capture representa un desafío debido a la complejidad del hardware necesario. Este enfoque requiere un montaje sofisticado que incluye la instalación de cámaras en un espacio especialmente designado, como un laboratorio, así como la presencia física de los informantes en dicho espacio. Adicionalmente, los sujetos deben colocarse marcadores en el cuerpo, lo cual demanda tiempo para su preparación y calibración (Parvini et al. 2009; Benbasat y Paradiso 2002). Los guantes de captura de movimiento actuales son costosos y, según nuestra experiencia, carecen de la precisión requerida para registrar los intrincados movimientos internos de la mano que son comunes en las lenguas de signos. Sin embargo, pueden ser útiles para analizar movimientos más amplios y la velocidad del signado (Crespo Vidal 2020; Krebs et al. 2021).

Por otro lado, el enfoque basado en visión artificial se vale de cámaras bidimensionales para capturar las articulaciones efectuadas por el signante. Diversos algoritmos de procesamiento buscan ya sea reconstruir la acción tridimensional y luego identificar el signo correspondiente (Trettenbrein y Zaccarella 2021; Fragkiadakis y Putten 2021; Li et al. 2022), o reconocer el signo directamente en el vídeo (Thad Starner, Weaver, y Pentland 1998; Cooper, Holt, y Bowden 2011).

Antes de la irrupción de las técnicas de aprendizaje profundo, se requerían estrategias variadas para facilitar el reconocimiento automático. Entre estas, la segmentación desempeña un papel crucial al separar elementos relevantes, en este caso las manos, dentro de una imagen. Para ello, se podían utilizar guantes coloreados, técnicas de croma o la basadas en el color de la piel, pero estas técnica necesitan de calibración constante (T. Starner y Pentland 1995). Además, dada la naturaleza cinética de los signos, el procesamiento posterior requiere técnicas avanzadas, como por ejemplos Modelos Ocultos de Márkov (Fang et al. 2002).

Las redes neuronales y el aprendizaje profundo han simplificado significativamente estos procesos, ofreciendo además resultados más precisos; Carneiro, Silva, y Salvadeo (2021) ofrece una revisión de las posibilidades y limitaciones actuales. El aprendizaje automático emplea grandes volúmenes de datos (corpus, datasets) para ajustar progresivamente una función predictora, minimizando el error de manera iterativa. Esta naturaleza empírica les otorga una ventaja considerable frente a otros paradigmas de la inteligencia artificial, como el procesamiento lógico o basado en reglas. En este sentido, no es necesario investigar y desarrollar las características específicas del dominio de aplicación; estas “emergen” del proceso empírico de ensayo y error.

Las redes neuronales constituyen un tipo de algoritmo dentro de la familia del aprendizaje automático que ha demostrado ser extremadamente eficaz para una amplia gama de tareas. Aunque existen múltiples arquitecturas de red neuronal, todas comparten la esencia de emplear funciones predictoras no lineales. Estas funciones, conectadas en capas sucesivas, permiten que la predicción resultante haga uso de una estructura interna jerárquica, aunque desafortunadamente, esta estructura interna es estocástica y a menudo opera como una “caja negra”, complicando su interpretación. En cualquier caso, el aprendizaje profundo o Deep Learning explota la enorme capacidad de cómputo de la que disponemos actualmente para crear y entrenar arquitecturas de redes neuronales de gran escala, pero sobre todo, de múltiples capas, de donde procede el sobrenombre de “profundo”. Zhang et al. (2021) dan una exploración técnica de las posibles causas del éxito de generalización de estas redes, o ver Moulton (2020) para una respuesta menos formal pero plausible.

En el contexto del aprendizaje profundo, existe una diversidad notable de arquitecturas. Estas redes han demostrado ser particularmente efectivas en el ámbito de la visión artificial, donde las reglas lógicas tradicionales habían alcanzado limitaciones significativas. Interesantemente, el cortex visual humano está organizado anatómicamente de una manera no muy diferente, con múltiples capas de procesamiento interconectadas que reconocen jerárquicamente distintas características de la imagen visual (Kruger et al. 2013).

El desarrollo y éxito de la visión artificial, tanto previo como posterior a la llegada del aprendizaje profundo, ha incentivado la búsqueda de nuevas áreas de aplicación, incluido el reconocimiento de gestos manuales. Las primeras aproximaciones se centraron en identificar gestos estáticos, como el “pulgar hacia arriba” o el signo de “OK” (Freeman y Roth 1995; Jimoh, Ajayi, y Ogundoyin 2020). Estos métodos se pueden extender de manera directa para reconocer el alfabeto manual de diversas LS (Makarov et al. 2019; Rumi et al. 2019; Aung et al. 2020), aunque este enfoque no captura la riqueza dinámica y multimodal de las lenguas de signos: la dactilología o alfabeto manual es una técnica útil para representar palabras de la lengua oral deletreándolas, pero no es el mecanismo principal con el que se crean los signos nativos de la lengua.

Enfoques más sofisticados buscan reconocer signos completos a partir de fuentes de vídeo (Thad Starner, Weaver, y Pentland 1998; Matsuo et al. 1998; Miyazaki, Morita, y Sano 2020; Vázquez-Enrı́quez et al. 2021). Para ello, se requieren grandes volúmenes de datos anotados, que a pesar de estar disponibles en algunos corpus (Hanke et al. 2020; Hassan et al. 2020), tienen sus propias limitaciones y desafíos, como la privacidad de los informantes y los derechos de imagen. En Bragg et al. (2020) se puede leer una extensa discusión sobre la recolección de corpus de LS y los distintos desafíos involucrados, y en nuestro país existen múltiples iniciativas específicas para la LSE (Santiago et al. 2019; Carmen Cabeza-Pereiro et al. 2016; Shterionov et al. 2021). En general, la literatura sobre reconocimiento o traducción de lengua de signos aborda diversos retos relacionados con la multimodalidad, la escasez relativa de datos y el uso de vídeo, pero a menudo presupone un modelo subyacente que asigna a cada signo una palabra correspondiente de la lengua oral. En este contexto, se suele llamar a esta palabra “glosa”.

No obstante, como señalan Ong y Ranganath (2005), este modelo de glosas no es suficiente para abordar el reconocimiento o traducción automática de LS. Por un lado, las frases en lengua de signos tienen un orden distinto de la oración, y una gramática propia distinta que la de la lengua oral. Una posible aproximación es, una vez obtenidas las glosas, reordenarlas para obtener una frase en lengua oral (Camgoz et al. 2018). Esta tarea, que se conoce como “alineamiento”, es de por sí una tarea crítica en la traducción automática de lenguas orales que, a pesar de su relevancia, no ha sido aún completamente resuelta, como refleja el informe de los propios ingenieros de Google sobre el asunto: Isaac Caswell y Bowen Liang (2020). Se puede leer una discusión informal pero entretenida y recomendable sobre este tema en Hofstadter (2018).

Más allá de estas complicaciones compartidas con la traducción de lenguas orales, la LS presenta desafíos específicos. En particular, la relevancia sintáctica del espacio y del movimiento, como apuntan investigaciones recientes como la de Rodríguez y Martínez (2021), así como la morfología interna de los signos, constituyen aspectos fundamentales para comprender su significado. Elementos como la posición de la mano, la dirección hacia la que apunta o el número de repeticiones del signo son variaciones morfológicas que influyen en el significado y que resultan irrepresentables mediante palabras en lengua oral. Además, la expresión facial emerge como un articulador adicional crucial para captar el sentido completo del signo, tal como se evidencia en Porta-Lorenzo et al. (2022).

Por lo tanto, para efectuar un reconocimiento preciso de la LS, no es suficiente con aplicar métodos preexistentes de visión artificial o de traducción automática. Se requiere un estudio exhaustivo de la LS desde una perspectiva de lingüística computacional, lo cual permitiría diseñar modelos más ajustados a las particularidades de esta lengua. En la siguiente sección abordamos este estudio, adquiriendo el conocimiento necesario sobre la estructura propia de las LS que nos permitirá avanzar en su tratamiento computacional efectivo.